Microbiome: 16S rRNA基因拷贝数应该被校正吗?
The following article is from 微生态笔记 Author 吴悦妮
摘要:
16SrRNA基因是微生物生态学中应用最广泛的标记基因,通常根据16S测序结果来估计微生物群落中细菌和古菌的比例。然而由于不同生物体含有不同的16S基因拷贝数(gene copy numbers, GCNs),更大GCNs的分支往往会在测序中得到更多的序列,从而使得结果的相对丰度高于实际值。近来,一些基于测序基因组来预测GCNs的方法陆续被开发出来,这些方法使用了系统发育的方法以纠正前述偏差,但其预测的准确性还没有经过评估。本文作者基于6800个公共测序基因组并运用多种系统发育方法,对16S GCNs在细菌和古菌分支上的可预测性进行了系统评估,并在更广泛的类群和来自不同环境的635个微生物群落中,对PICRUSt、CopyRighter、PAPRICA等三个最近公布的方法的预测准确性进行了评估。
结果发现,无论哪种方法,16S GCNs只能准确预测一个有限的分类群(<15% divergence)。一致的是,这些工具在预测全基因组时表现出较低的准确度,在某些情况下,甚至只能解释不到10%。几个测试微生物群落之间的工具也存在很大的误差。微生物群落的最相似序列分类指数(nearest sequencedtaxon index, NSTI),即测序基因组的平均距离,对于非动物相关样本可以进行有力预测,但对于动物相关样本结果稍逊。因此,一般情况下作者不建议在微生物研究中纠正16S GCNs。
1.从系统发育的角度16S GCNS的可预测性
16S GCNs的自相关函数,即在一定的系统发育距离上两个随机挑选的OTU的GCNs之间的相关性,随着系统发育距离的增加而适度衰减(图1A),在系统发育距离约15%的情况下下降到0.5以下,在系统发育进化距离约30%时降为0。因此,16S GCNs的预测对于具有大于约15%的NSTD的分支和接近NSTD大于约30%的分支是不准确的。为了明确测试这一结论,作者基于SIVLA衍生树随机16S GCNs进行预测,并比较了这些预测和从已知的完整测序基因组的GCNs。作者使用了以下常见的两种重建算法预测GCNs:对于CopyRighter和PICRUSt使用PIC算法, 对于PAPRICA使用subtree averaging算法。结果发现所有的预测方法仅实现了NSTD低于15~30%的高精度(图1C),符合原本基于自相关函数的期望。在SILVA衍生的树中,大约49%的OTU具有大于15%的NSTD,并且大约30%的OTU具有大于30%的NSTD(图1B)。由于Silva数据库中自然界的环境微生物群落不是纯随机的取样,因此这些生物一般预测NSTDs会较低。此外,很可能有大量的原核生物尚未被包括在SILVA,例如从最近发现的或尚未发现的一些门,NSTD可能大于30%。因此,基于测序基因组的16S GCNS的预测对于大多数现存的天然环境中的原核分支来说是不准确的,树的拓扑和分支长度的误差可能降低系统发育重建工具的预测精度(图1C)。
图一 16S基因拷贝数的系统发育信号
(SILVA衍生树)
2.第三方预测工具的评估
前面的分析表明,基于可用测序基因组的16S GCNs的系统发育预测对于大量的原核分支来说是不准确的,特别是那些仅具有少数测序代表的物种。这一发现引发了对16S GCNs可以准确预测典型环境群落的质疑,16S GCN校正应该被系统地应用于每一个微生物群落研究。因此,作者测试了PICRUSt v1.1.1、CopyRighter v0.46和PAPRICA v0.4.0b最近出版的三种工具的预测精度。作者进行了两种类型的测试:第一个测试将上述测序基因组的GCNS与基于基因组16S序列的每个工具预测的GCNs进行比较;第二个测试将每个工具的预测与其他两种工具的预测进行比较,对于Greengene 16S rRNA数据库中的所有OTU以及来自不同范围环境中的635个微基因组中发现的原核OTU进行比较。结果发现,三种工具的预测准确度和以真GCNs的解释方差的部分来测量的预测精度通常随着基因组的NSTD而降低(图2)。对于PICRUSt和PAPRICA,R2甚至对NSTD在30%以上都是负的。
图二 GCN预测工具对
已知GCN基因组的评价
不同的工具之间在评估整个Greengene数据库时,预测的GCNs与其他工具的预测中方差最多为25%(图3)。CopyRighter和PICRUSt使用相同的输入基因组和相似的参考树集合,然而所得结果基本不同(图3a)。当考虑依赖于OTU的NSTD工具之间的差异时,发现R2随着NSTD的增加而迅速减小,并且在NSTD低于20%时变成负(图3d-f)。
图三 基于Greengenes各工
具之间16S GCN预测的比较
作者用635个样本来比较这三种工具,发现对于任何两种工具来说(CopyRighter vs. PICRUSt,PICRUSt vs. PAPRICA, CopyRighter vs. PAPRICA),第一工具预测的方差由第二工具(R2)的预测解释低于0.5的超过84%的样本,低于0.1超过55%的样本(图4)。在许多情况下,工具之间的一致性甚至比工具之间不相关的预测更差。在PICRUSt和PAPRICA之间发现了最差的一致性,而CopyRighter和PICRUSt之间发现了最好的(但仍然是不好的)一致性。这进一步加强了文章的结论,现有的GCN预测工具对这些样本中的许多样本表现不佳,即使只考虑与动物相关的样本(例如人类皮肤样本)。动物样本被认为是比其他环境更好的研究,并通常具有较低的NSTIs(加权平均NSTD的OTU),结果发现工具之间仍存在不一致性。一种解释是,即使在人类相关的微体系中,许多具有高NSTD的OTU降低了总体预测精度。事实上结果发现,在大多数样本之间的工具之间的不一致性不是单独由一些特异OTU驱动,而是反映在每个样本中大量OTU的中度到较差的一致性。而对于非动物样本,则趋势更为明显。很可能是由于许多被忽略的分类,尤其是研究不够深入的门类,甚至比一些特异的OTU具有更大的NSTD。
图四 GCNs预测工具在
微生物群落中的一致性
以前的研究曾经使用模拟群落来测试16S GCNs的可预测性,表明正确的校正GCNs可以提高微生物群落组成的估算准确性。因此,使用模拟群落而不是自然群落,可以使GCNs得到很好地预测,因为每一个单位的GCNs都是已知的。
结论:
作者评估了16S GCNs的系统发育保守性,并使用几种常见的系统发育重建算法研究了GCNs的可预测性。其研究结果表明GCNS或许并不能预测大量现存的原核分支。此外,作者评估了三种可用的16S GCN预测工具在一组完全测序基因组上的准确性,以及在Greengene 16S数据库和来自广泛环境的微生物群落中的OTU的准确性。分析结果表明,现有的工具在大部分基因组与OTU测试中表现不佳;对于超过85%被检查的微生物群落,GCN预测在几种工具之间差异很大。因此,由于测序基因组覆盖不足,16S GCN预测对于现存的原核多样性的很大一部分是不精确的,这与通常的假设恰恰相反。因此作者建议,16S GCNs应仅在具有低NSTI(15%)的微生物群落的研究中被校正。
参考文献:
Louca S, Doebeli M, Parfrey L W. Correcting for 16S rRNA gene copy numbers in microbiome surveys remains an unsolved problem[J]. Microbiome, 2018, 6(1): 41.
https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0420-9
中国科学院生态环境研究中心
环境生物技术重点实验室
邓晔 研究员课题组发布
作者:吴悦妮
猜你喜欢
10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1500+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”